#AI agents
摩根士丹利:AI agents將推動社交平台迎來下一次進化?
核心觀點:社交平台或成AI 代理落地先鋒摩根士丹利在2025 年 8 月 13 日的報告中指出,亞洲主流社交平台(如微信、KakaoTalk、LINE)有望成為 AI 代理技術的首批規模化應用場景。這些平台憑藉龐大的使用者基數、高頻的日常使用和多元的服務生態(購物、支付、出行等),能通過 AI 代理顯著提升使用者體驗,吸引更多第三方服務接入,甚至催生新商業模式。儘管執行難度較大,但當前股價尚未充分反映這一潛在價值。為何是社交平台?AI 代理落地的三大優勢1. 使用者生態成熟微信(中國)、KakaoTalk(韓國)、LINE(日本)均為本土絕對主導的社交平台,覆蓋 80%-95% 的人口,日均活躍使用者分別達 9.05 億、4400 萬、8620 萬,日均使用時長最長達 101.6 分鐘(微信),為 AI 代理提供了天然的應用場景。2. 服務閉環完善三大平台均已整合購物、支付、出行等功能,AI 代理可在單一平台內完成任務閉環(如訂外賣、叫車),避免跨平台操作的繁瑣。例如,Kakao 已推出 “AI 購物助手”,使用者可直接通過聊天介面獲取商品推薦並完成購買。3. 資料優勢顯著平台日均產生數百萬甚至數十億次互動資料,能持續最佳化AI 代理的任務執行精度。相比垂直領域(如旅遊、電商),社交平台的資料覆蓋更全面,更適合訓練通用型 AI。樂觀前景:從“超級應用” 到新商業模式1. 強化超級應用地位AI 代理若能順暢完成複雜任務(如規劃旅行、批次處理預約),將提升使用者粘性,推動流量和交易規模增長,進而帶動廣告和交易佣金收入。以微信為例,其生態已涵蓋社交、娛樂、支付、電商等,AI 代理可能使其成為更核心的服務入口。2. 第三方服務接入擴容缺乏AI 技術的中小服務商可能通過社交平台的 AI 代理觸達使用者,平台可借此拓寬服務範圍並收取技術使用費。例如,Kakao 計畫通過 AI 代理切入旅遊預訂領域,連結 OTA 服務商;LINE 的 AI 促銷功能已使部分品類銷售額提升 111%。3. 電商與訂閱制新機會儘管社交平台在主流電商領域滲透率較低,但AI 代理或簡化購物流程(如智能推薦、一鍵結算)。參考韓國(1600 億美元)、中國(2.9 兆美元)的電商市場規模,即使小幅份額提升也能帶來顯著收益。此外,平台可能推出分級訂閱制 AI 代理(如基礎功能免費、高級功能付費),按複雜度定價。技術支撐:巨頭背後的AI 力量微信:依託騰訊自研的混元大模型,已整合DeepSeek-R1 等技術,近期推出的 “元寶 AI 助手” 可接入微信生態內的小程序、公眾號等資料,支援內容創作、資訊檢索等功能。Kakao與LINE:與 OpenAI 合作開發 AI 代理,Kakao 計畫 2025 年 11 月推出正式版本,LINE 則在 2025 年 4 月升級 AI 聊天機器人,支援文字和圖像互動。風險提示:三大潛在挑戰1. 使用者體驗不及預期若AI 代理存在理解偏差、執行錯誤(如支付故障),可能削弱使用者信任。支付場景尤為敏感,任何失誤都可能導致使用者流失。2. 競爭格局變化垂直領域巨頭(如字節跳動、Naver)可能推出自有 AI 代理;全球平台(如 OpenAI、Google)也可能通過技術優勢切入市場,分流使用者。3. 技術迭代風險AI 技術發展速度快,若平台未能持續迭代,可能被競爭對手超越。例如,字節跳動的 “豆包” AI 已在使用者增長和功能豐富度上對微信形成壓力。對股價的影響:三家公司的潛在機會Kakao(韓國)AI 代理被視為平台創新的核心催化劑,摩根士丹利將其目標價從 5.6 萬韓元上調至 7.5 萬韓元,維持 “增持” 評級,預計 2028 年 AI 訂閱服務可能帶來 1 兆韓元年收入。騰訊(中國)微信的AI 佈局將鞏固其在中國 AI 應用領域的領先地位,進一步擴大生態優勢。報告認為,AI 代理是被低估的增長動力,目標價為 700 港元,較當前有 16.2% 的上漲空間。LY Corp(LINE 母公司,日本)市場對LINE 的 AI 潛力預期較低,但提升使用者參與度的空間大,目標價 600 日元,潛在漲幅 19.3%。總結:AI 代理改寫社交平台競爭規則報告認為,AI 代理技術正處於爆發前夜,亞洲社交平台憑藉生態優勢有望搶佔先機。儘管存在技術和競爭風險,但長期來看,成功落地的平台將在使用者粘性、商業化能力上實現突破。對於投資者而言,Kakao、騰訊、LY Corp 的 AI 進展值得重點關注。 (資訊量有點大)
AI Agents:下一場科技革命
人工智慧(AI)不是什麼遙遠的夢話,它的快速發展正在改變我們對技術與生活的理解,正在把一切翻個底朝天。如果你還覺得AI Agents只是個炒作,或是只是矽谷的玩具,那你真是瞎了眼。這玩意兒不是科幻片裡的噱頭,它是實打實的生產力炸彈,正在把我們的工作、生活和腦子裡的想法炸得天翻地覆。這篇文章用很簡單的語言帶你搞清楚AI Agents到底是什麼、怎麼分門別類、在那兒用、有什麼坑,以及它會怎麼把未來帶到你面前。1. 什麼是AI AgentsAI Agents這個名字聽著挺唬人,其實已經偷偷鑽進你生活裡了。簡單說,它們就是能理解資訊、消化資訊、幹活兒的智慧系統。它就像一個數字大腦,不光聽懂你瞎嚷嚷什麼,還能幫你幹活兒──寫郵件、訂行程、做決策,啥都行。廣義範圍看,AI Agents包括所有智慧工具,從老掉牙的規則係統到複雜的機器學習模型,再到汽車自動駕駛。這些工具可能並不依賴語言,而是透過傳感器、圖像或其他數據形式來感知和互動。例如,自動駕駛汽車就是一個典型的廣義AI Agent。它透過相機或雷達感知周圍的道路狀況,分析資料後自主決定加速、剎車或轉向,最終將乘客安全地送達目的地。這種代理的核心在於感知、決策和執行,而不一定涉及語言互動。但今天我們要聚焦的是以大語言模型(LLM)為核心的狹義AI Agents。近年來,隨著ChatGPT、Gemini等LLM的突破性進展,狹義AI Agents成為了AI領域的熱點。它們以自然語言處理技術為基礎,能夠理解人類的複雜指令,產生自然流暢的回應,並在此基礎上執行多樣化的任務。想像一下,你對一個AI說:“幫我寫一篇關於AI Agents的報告”,它不僅能理解你的意圖,還能生成一份結構清晰、內容豐富的檔案——這就是狹義AI Agents的魅力所在,它們才是翻天覆地的主力。為何?因為它們靠語言驅動──你隨便說句話,它們就懂,還能照著幹,像是雇了個超聰明的小弟。它們盯著任務不放,專為搞定具體活兒而生,不管是寫程式碼、挖資料,還是想點子。它們還能拉工具幫忙,調搜尋引擎、API,突破自己的知識牆。更牛的是,它們有上下文記憶,能記住你前面說了啥,給你更可靠的答案。這些特質讓AI Agents變成了顛覆級玩家。別再懷疑了,這就是未來。2. AI Agents的分類AI Agents不是千篇一律的貨色。依自主程度和能耐,分三檔:指令型、半自主型、全自主型。每種類型都有其獨特的優勢和適用場景。別怕,我用大白話給你講透。指令型代理是最基礎的,像個自動販賣機——你按個鍵,它吐個東西。你說“寫首詩”,ChatGPT就甩一首給你;寫個代碼註釋,GitHub Copilot就幫你補全代碼。簡單粗暴,但別指望它們自己動腦子或搞複雜活兒。它們就是被動執行,廣泛應用於回答問題、產生內容或基礎對話。快是快,但步驟一多或需要靈感的活兒就抓瞎了。半自主代理稍微有點腦子。它們能在一定範圍內自己幹活兒,例如拆任務、調工具,但你得定目標提供初始指導,在關鍵節點你偶爾還得拉一把,進行確認。 LangChain Agent或AutoGPT就是這路子。你說“給我查市場趨勢”,它們會自己搜尋、整理、寫報告。但任務太亂或工具崩了,它們就歇菜,得你救場。這類適合調研、分析資料,但離全自動還差一截。全自主代理是終極夢想。它們能從頭到尾自己搞定複雜活兒,不用你插手。 OpenAI的o1或Replit Agent就是例子。你說“搞個網站”,它們自己分析、寫代碼、測試、上線,全程一條龍。聽著像科幻?但這就是現實。這玩意兒能幹網站開發、投資管理、策略規劃這種硬活兒。當然,技術難度和資源消耗也高得嚇人,還在初級階段。3. AI Agents的架構與關鍵元件AI Agents這麼能幹,靠的是硬派架構。不同類型各有門道,但核心是大語言模型(LLM),再搭上其他零件,幹特定活兒。指令型代理最簡單:LLM負責聽懂和輸出,對話管理器記著聊了啥,輸出生成器給你打包結果。流程就是你問它答,快得像閃電,但也就這樣了。半自主代理複雜點:LLM負責任務理解和初步決策;有任務分解器把大活兒拆成小塊;工具集調外部資源;反饋循環根據幹活兒的情況調整。流程大致上是這樣的:你給目標,它們拆解、執行、重複優化,最後交貨。這種架構能夠處理更複雜的任務,但工具不穩定或任務分解出錯就很麻煩了。全自主代理的架構是藝術:除了LLM,還有高級規劃器規劃制定長遠行動計劃;環境感知模組即時監控任務進度;自適應學習模組從歷史和經驗中學習升級。流程是:你給目標,它們規劃、執行、監控、學習,優化,最後給你完美結果。這種架構給予了AI Agents高度靈活性,能應付複雜動態環境,但開發難度和資源需求高得要命。4. AI Agents的應用場景AI Agents的應用多到數不清,從日常生活到專業工作,它們正在以各種方式改變我們的世界。以下是幾個典型的應用場景。客戶服務:智慧客服早不稀奇了。回答問題、處理訂單、修故障,24/7線上,成本低到你想哭。比傳統客服更快、更穩,還能提供個人化服務。程式設計與開發:AI Agents正在加速開發流程並減少人為錯誤。 GitHub Copilot可以根據自然語言描述產生代碼片段,Replit Agent甚至能自動修復bug或完成整個項目。你只要提供需求描述,它們就能產生可運行的代碼,速度快得飛起,連外行人都能上手。商業與金融:AI Agents是資料決策的大殺器。它們可以分析市場、給投資建議、算風險,金融機構用它們挖海量資料,產生詳細的投資策略和風險報告,幫助管理者在復雜環境中做出決策。教育與培訓:AI Agents帶來了個性化和高效的學習體驗。它們可以根據學生的進度和風格調整課程,提供智慧輔導和即時回饋。想像一個AI老師,為每個學生設定專門的學習計畫──這已經不是夢。5. AI Agents的挑戰與限制儘管AI Agents的前景令人振奮,但也別以為它就是神,它們也有不少毛病,技術上、實踐上都得啃硬骨頭。指令型代理太死板。如果問題超出知識範圍就懵圈,長期對話還容易忘事兒,前後答得亂七八糟。最煩人的是它們被動,不會主動幫你優化。半自主代理卡在任務分解和工具呼叫上。語言模型規劃能力有限,容易搞砸。另一個是工具呼叫不穩,API一崩任務就黃。最後自動化不夠,還需要你經常盯著,增加了使用負擔。全自主代理更麻煩。高級規劃太難,開發和資源都很燒錢。環境感知能力尚不完善,難以適應動態環境變化,容易翻車。最頭痛的是倫理和安全──失控或決策出錯,後果誰來承擔?6. AI Agents的未來趨勢AI Agents的未來?一句話:更自主、更強協作、更安全。增強自主性:未來將從半自主到全自主進化,人類插手越來越少。在高風險、複雜場景——例如自主醫療診斷、無人駕駛物流——它們能夠獨立應對更多挑戰,大殺四方。多代理系統:AI Agent單打獨鬥的日子結束了,未來會是多個AI Agents的「智慧團隊」。例如,一個市場分析任務可能由資料收集Agent、分析Agent、和報告生成Agent一起上,效率和穩定性爆棚。倫理與安全框架:隨著AI Agents自主性越來越高,確保其行為可控變的直覺重要。未來的發展會加入倫理限制和安全機制,例如限制決策範圍、增加透明度,讓你用得放心。開源與標準化:未來的AI Aigents開發會更加開放,開源模型和統一框架拉低技術門檻,促進全球創新加速。更多人會跳進去推這場革命。結語AI Agents不僅是技術進步的產物,更是人類智慧的延伸。它們正在重塑我們的工作方式、決策過程、生活體驗。從簡單的指令型到複雜的全自主型,AI Agent在以驚人的速度進化沖向未來。坑?有的是──技術瓶頸、倫理麻煩、安全隱患,個個都是硬派。但那次科技大跳躍沒點陣痛?網路有駭客,社群媒體有隱私坑,AI Agents也會有自己的爛攤子。未來已來,你準備好迎接這場變革了嗎? (林禿頭)
Nature發文「智能體摩爾定律」,Agent能力每7個月翻倍,5年後能頂人類苦幹一個月的工作
AI Agents(智能體)也有自己的“摩爾定律”了?!就在最近,Nature報導了一項來自非營利研究機構METR的最新發現:AI在完成長期任務方面的進步速度驚人,其時間跨度大約每七個月翻一番。為了衡量Agent自動完成任務的能力變化,研究人員提出了“50%-任務完成時間跨度(50%-task-completion time horizon)”這一指標。他們以50%任務成功率為基準,假設2019年AI達到這一目標所需時間對應人類需要的時間為10分鐘,那麼7個月後,其對應的人類完成任務時間則變成了20分鐘。換句話說,AI能夠勝任越來越多人工耗時久的任務,能力逐漸更強。2024年這一增長速度變得更快了,一些最新模型大約每三個月翻一番。按照預測,大約五年後,AI就能自動完成很多人類現在要花一個月才能完成的任務。網友們紛紛表示,這下終於對AI進步神速有實感了!提出“50%-任務完成時間跨度”指標在METR的介紹中,他們將這一發現命名為“Moore’s Law for AI agents”,也就是“智能體摩爾定律”。下面我們詳細展開其研究方法。整體而言,他們主要是讓AI和一些專業人員在相似條件下嘗試完成任務,然後測量人類所需要的時間,最終來比較AI成功率如何隨著人類完成時間的長短而變化。這第一步,研究團隊選擇了三個不同的任務套件來評估AI模型的能力:97個HCAST任務,涵蓋軟體工程、機器學習、網路安全和一般推理挑戰的多樣化任務集合,難度從幾分鐘到30小時;7個RE-Bench任務,由七個開放式的機器學習研究工程環境組成,每個需人類專家約8小時完成;66個SWAA任務,代表軟體開發過程中的單個步驟操作,時長1秒到30秒。接下來,為了量化評估AI模型的表現,團隊招募了800多名軟體工程、機器學習和網路安全領域的專業人員執行任務,並記錄他們完成任務所需的時間。據METR介紹,在這些任務中,人類完成時間從1秒到16小時不等。這些時間被當作衡量任務難度的標準。然後他們又評估了從2019年到2025年發佈的13個前沿AI模型,包括GPT系列和o1、Sonnet 3.7等,通過在建構的任務套件上運行這些模型,並記錄它們完成任務的成功率。關鍵來了,隨後他們引入了一個新的指標——50%任務完成時間跨度(50%-task-completion time horizon),即AI模型在50%的成功率下能夠完成的任務的平均時間長度。之所以選擇50%這一成功率,主要是它對於資料分佈的微小變化最為穩健。簡單說,當資料的分佈(即資料的特徵、比例或趨勢等)發生一些小的變化時,這個指標不會受到太大的影響,仍然能夠保持相對穩定的表現。論文作者之一Lawrence Chan表示:如果你選擇非常低或非常高的閾值,那麼分別移除或增加一個成功或失敗的任務,就會對你的估計值產生很大的影響。利用這一指標,團隊通過對AI模型在各個任務上的成功與失敗資料進行邏輯回歸分析,計算出每個模型的時間跨度,也就是模型完成任務成功率達到50%之時,對應的人類完成任務的時間。(每個模型在每個任務上運行8次,記錄成功率)有了這些資料,團隊最終繪製了模型自主性隨時間呈指數變化的圖表。發現“AI智能體摩爾定律”如上圖所示,研究的主要發現是:自2019年以來,AI模型的時間跨度呈現出指數級增長,每七個月左右翻一番。為了驗證研究結果的外部有效性,他們又進行了以下四個實驗:1、用2023-2025年資料回溯預測,驗證趨勢一致性;2、對HCAST和RE-Bench任務基於16個 “混亂” 因素評級,分析任務混亂程度對模型性能的影響;3、在其他SWE-bench Verified資料集上應用相同方法,對比結果;4、在內部Pull Requests(PR)任務上測試模型性能,與人類基線對比。最終,這一趨勢得到了以上外部驗證。比如在第2個實驗中,所謂的16個 “混亂(messy)” 因素是指現實任務比研究任務更難的方面,包括任務是否受到有限資源的限制、是否涉及即時協調或是否源自現實世界的環境。每個任務都根據這些因素得到了一個 “混亂度(messiness score)” 分數。研究人員發現,儘管AI模型在更加混亂的任務上(比如缺乏明確提示和反饋、需要AI主動去獲取資訊、任務條件和要求比較模糊等情況)的絕對性能較低,但另一方面其性能在穩步提升。更有意思的是,不管任務的“混亂”程度如何,AI都是以相似的速度在提升。再比如在SWE-bench Verified基準上的驗證,他們也觀察到了一個類似的指數級增長趨勢。不過由於標註時間的問題,該基準測試的時間跨度翻倍時間更短。總之,按照“智能體摩爾定律”進行預測,AI可能在2028年11月達到一個月的任務時間跨度;而在較為保守的估計下,這一目標可能在2031年2月實現。METR團隊認為,雖然研究還存在任務套件具有侷限性、評估指標不完美、未來AI發展具有不確定性等需要完善的地方,但很確信這一指標每年有1~4倍的增長趨勢。而結合現實中Manus智能體的走紅,我們已經能夠預見到智能體將迎來爆發。 (量子位)